Pràctica 7 — Problema 6
Anàlisi de Dades 2024-25
Enllaç git.
Enunciat
La sèrie temporal ts_1 correspon a les vendes (en milers d’unitats) d’un producte en una empresa durant diversos trimestres consecutius. L’empresa cerca desenvolupar un model de pronòstic per predir les vendes futures del producte. Per això, dividiu la sèrie temporal en dos trossos: un 80% de les primeres observacions les utilitzareu per “aprendre” i deixareu el 20% restant per avaluar la capacitat predictiva del model.
(6.1) Descriviu la sèrie temporal d’aprenentatge: gràfic de la sèrie original, detecció de la tendència, anàlisi de la variabilitat i estacionalitat (en el cas que apliqui).
(6.2) Analitzau els gràfics ACF i PACF. Descomposau la sèrie d’acord amb un model additiu i un de multiplicatiu, seleccioneu el millor. Finalment, feis prediccions amb el model additiu o multiplicatiu que heu seleccionat, dibuixau els vostres pronòstics sobre la sèrie total (aprenentatge + test). Calculau l’error quadràtic mitjà de les prediccions i comentau el resultat en el context del problema.
?decompose diu This only works well if ‘x’ covers an integer number of complete
Introducció
Anàlisi exploratòria
En primer lloc, notem que tenim 48 dades, és a dir, 12 períodes complets de quatre trimestres. Emperò, el 80% de 48 dona aproximadament 38, que no és múltiple del període. Aleshores, per facilitar l’anàlisi agafarem les primeres 36 mostres (el 75%, que correspon a 9 períodes) d’aprenentatge, i deixarem les 12 restants (3 períodes) per les prediccions.
Una vegada agafat el nombre de mostres, dibuixem la sèrie temporal de dades (el primer 75%) per tenir una primera visió de les dades. Com que no tenim cap informació del començament de la sèrie, enumerarem la sèrie començant pel període 1, on cada període té una durada d’un any (quatre trimestres), tot i que no té perquè començar al gener ja que no tenim informació al respecte.
A simple vista es pot apreciar un comportament oscil·lant i, per tant
A més, presenta una tendència clarament positiva (començam al voltant dels 60 milers i acabam al voltant del 120 milers). També s’aprecia una variabilitat més o manco constant, tot i que hi ha alguns períodes (6-7 o 9-10) amb pics més grans. Finalment, no s’aprecia cap fluctuació cíclica, la sèrie pareix bastant constant, tenint en compte l’estacionalitat i la tendència.
També podem estudiar l’estacionalitat amb un boxplot per cadascun dels trimestres.
Shapiro-Wilk normality test
data: df_aux$data
W = 0.95086, p-value = 0.1113
Bartlett test of homogeneity of variances
data: data by mes2
Bartlett's K-squared = 1.5703, df = 3, p-value = 0.6661
Df Sum Sq Mean Sq F value Pr(>F)
mes2 3 6007 2002.3 3.552 0.0251 *
Residuals 32 18037 563.7
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pairwise comparisons using paired t tests
data: df_aux$data and df_aux$mes2
1 2 3
2 0.0115 - -
3 0.0235 0.0021 -
4 0.0159 0.3520 0.0036
P value adjustment method: holm
Amb un test d’anova i de comparació de mitjanes veim que hi ha diferències significatives entre les mitjanes del 3r al 4t i 2n semestre, i p-valors propers a 0.1 entre el 1r al 2n i 4t semestre. Així, podem corroborar que es dona l’estacionalitat esmentada.
ACF i PACF
Vegem els gràfics ACF i PACF.
En el primer gràfic (ACF) es pot observar una clara estacionalitat, idò s’aprecia un comportament oscil·lant i repetitiu. A més, les correlacions decreixen poc a poc degut a la tendència. Pel que fa al PACF, es pot veure que una observació influeix significativament a dos trimestres més endavant (també influeix al següent però de manera no tan significativa).
Models additiu i multiplicatiu
Hem vist a l’anàlisi exploratòria que la variabilitat no creix amb el temps. Per tant, esperam que un model additiu s’ajusti més que un de multiplicatiu.
El model additiu és el següent.
Com es pot apreciar, hi ha una tendència creixent i una forta estacionalitat. Vegem ara el multiplicatiu
De la mateixa manera es veu una tendència creixent, estacionalitat i, comparant-ho amb l’additiu, no s’aprecien moltes diferències.
Miram si millor model multiplicatiu o additiu
(aixi com està no se si se poden comparar, no tenen mateixa escala)
[1] 47.30638
[1] 0.006497169
Pentura a nes grafic següent calculam distàncies entre original i cada model, i mos quedam amb es que minimitzi sa distància? (MSE com demana a s’exercici)
##Els nostres models La cosa és que per fer el pronòstic, no tenim la tendència, només una aproximació a partir de la recta de regressió lineal. Aleshores els resultats vists anteriorment no ens serveixen per determinar quin model ens modela millor per fer previsions futures. Per tant, el que hem de fer per modelar la sèrie és calcular uns valors d’estacionalitat a partir dels de la recta de regressió. Després, tindrem el renou d’aquest nou model i decidirem:
Qtr1 Qtr2 Qtr3 Qtr4
1 6.3348348 -7.0598859 14.0553934 -5.2193273
2 3.7159520 -7.7687688 24.2065105 -9.0382102
3 3.3870691 -3.1976517 10.8276276 -16.6870931
4 10.4881862 -20.0265345 0.7487447 -18.5659760
5 0.7293033 -4.2954174 10.1198619 -26.0348589
6 26.6404204 -8.7343003 22.9909790 -28.0237417
7 7.2915375 -5.8631832 10.1420961 -14.4426246
8 7.7226547 -9.9020661 18.9432132 -1.4215075
9 16.4137718 -18.4909489 41.7043303 -31.6903904
Ara calcularem els residus
[1] 9.191526 -9.482084 17.082084 -16.791526 9.191526 -9.482084
[7] 17.082084 -16.791526 9.191526 -9.482084 17.082084 -16.791526
[13] 9.191526 -9.482084 17.082084 -16.791526 9.191526 -9.482084
[19] 17.082084 -16.791526 9.191526 -9.482084 17.082084 -16.791526
[25] 9.191526 -9.482084 17.082084 -16.791526 9.191526 -9.482084
[31] 17.082084 -16.791526
Ara ja tenim els residuals del model additiu pel quarem farem la nostra predicció. Per veure si és un bon model, anem a veure si els errors segueixen una distribució normal ()
Farem un Shapiro test per veure si segueix notmalitat:
Shapiro-Wilk normality test
data: a
W = 0.97447, p-value = 0.5595
[1] 76.90274
[1] 44.54814
Mirem quins dels residuals de les sèries anteriors segueix una distribució normal, ja que si els errors segueixen normalitat (White noise), llavors ens indica que el model està ben ajustat. Fem la prova d’Agostino per ambdós models:
Prueba de Agostino para Modelo Aditivo:
D'Agostino skewness test
data: residuales_add
skew = -0.055484, z = -0.148947, p-value = 0.8816
alternative hypothesis: data have a skewness
Prueba de Agostino para Modelo Multiplicativo:
D'Agostino skewness test
data: residuales_mult
skew = 0.24219, z = 0.64528, p-value = 0.5187
alternative hypothesis: data have a skewness
Com podem comprovar, cap dels models té uns residuals que segueixin una distribució normal, així, concloem dient que els models no són bons.
Pronòstic
<<<<<<< HEAD
Com podem observar, la previsió no és gens bona, llavors hauríem de preveure la sèrie amb un altre model.
<<<<<<< HEAD
295ca5eef7df5e9b22c7febd745658466a3c763f
[1] 37
[1] 9.25
[1] 9.5
[1] 9.75
[1] 10
[1] 10.25
[1] 10.5
[1] 10.75
[1] 11
[1] 11.25
[1] 11.5
[1] 11.75
[1] 12
[1] 124.4325 107.6936 136.1925 104.2536 132.1714 115.4325 143.9314 111.9925
[9] 139.9102 123.1714 151.6702 119.7314
[1] 127.62510 104.33383 140.54565 99.51971 136.19563 111.22457 149.67723
[8] 105.88239 144.76615 118.11531 158.80881 112.24507
Altre manera de fer prediccions:
[1] 128.4536 96.5147